Telegram Group & Telegram Channel
✔️ ttt-rl (Tic-Tac-Toe Reinforcement Learning)

🎯 Суть проекта
Это эксперимент по обучению с подкреплением (Reinforcement Learning, RL), где агент учится играть в крестики-нолики (Tic-Tac-Toe) без использования нейронных сетей. Основная цель — продемонстрировать, как классические методы RL справляются с простыми играми.

🔥 Чем интересен?
Минимализм и простота
Весь код написан на чистом C (~400 строк).
Нет зависимостей — только стандартная библиотека.
Идеален для изучения основ RL «с нуля».

Классический подход к RL
Используется метод Temporal Difference (TD) Learnin
Агент обучается через игру (self-play) и обновляет стратегию на основе наград.

Образовательная ценность
Понятная визуализация процесса обучения (таблицы Q-значений).
Пример того, как простая задача помогает понять фундамент RL.

Эффективность
После обучения агент играет почти оптимально, избегая поражений.
Код легко модифицировать для экспериментов (например, изменить размер доски).

📊 Как это работает?
Q-таблица хранит «ценность» каждого действия в конкретном состоянии.

Агент выбирает ход на основе текущих Q-значений (с добавлением случайности для исследования).


P.S. Если вы думаете, что RL — это только про AlphaGo и Dota 2, этот проект покажет, что даже в простых задачах есть глубина! 🧠

Github

@cpluspluc

#rl #ml #ai #tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/cpluspluc/997
Create:
Last Update:

✔️ ttt-rl (Tic-Tac-Toe Reinforcement Learning)

🎯 Суть проекта
Это эксперимент по обучению с подкреплением (Reinforcement Learning, RL), где агент учится играть в крестики-нолики (Tic-Tac-Toe) без использования нейронных сетей. Основная цель — продемонстрировать, как классические методы RL справляются с простыми играми.

🔥 Чем интересен?
Минимализм и простота
Весь код написан на чистом C (~400 строк).
Нет зависимостей — только стандартная библиотека.
Идеален для изучения основ RL «с нуля».

Классический подход к RL
Используется метод Temporal Difference (TD) Learnin
Агент обучается через игру (self-play) и обновляет стратегию на основе наград.

Образовательная ценность
Понятная визуализация процесса обучения (таблицы Q-значений).
Пример того, как простая задача помогает понять фундамент RL.

Эффективность
После обучения агент играет почти оптимально, избегая поражений.
Код легко модифицировать для экспериментов (например, изменить размер доски).

📊 Как это работает?
Q-таблица хранит «ценность» каждого действия в конкретном состоянии.

Агент выбирает ход на основе текущих Q-значений (с добавлением случайности для исследования).


P.S. Если вы думаете, что RL — это только про AlphaGo и Dota 2, этот проект покажет, что даже в простых задачах есть глубина! 🧠

Github

@cpluspluc

#rl #ml #ai #tutorial

BY C++ Academy




Share with your friend now:
tg-me.com/cpluspluc/997

View MORE
Open in Telegram


C Academy Telegram | DID YOU KNOW?

Date: |

How Does Bitcoin Work?

Bitcoin is built on a distributed digital record called a blockchain. As the name implies, blockchain is a linked body of data, made up of units called blocks that contain information about each and every transaction, including date and time, total value, buyer and seller, and a unique identifying code for each exchange. Entries are strung together in chronological order, creating a digital chain of blocks. “Once a block is added to the blockchain, it becomes accessible to anyone who wishes to view it, acting as a public ledger of cryptocurrency transactions,” says Stacey Harris, consultant for Pelicoin, a network of cryptocurrency ATMs. Blockchain is decentralized, which means it’s not controlled by any one organization. “It’s like a Google Doc that anyone can work on,” says Buchi Okoro, CEO and co-founder of African cryptocurrency exchange Quidax. “Nobody owns it, but anyone who has a link can contribute to it. And as different people update it, your copy also gets updated.”

If riding a bucking bronco is your idea of fun, you’re going to love what the stock market has in store. Consider this past week’s ride a preview.The week’s action didn’t look like much, if you didn’t know better. The Dow Jones Industrial Average rose 213.12 points or 0.6%, while the S&P 500 advanced 0.5%, and the Nasdaq Composite ended little changed.

C Academy from br


Telegram C++ Academy
FROM USA